来自数据流的在线异常检测对于许多应用程序的安全性至关重要,但是由于来自IoT设备和基于云的基础架构的复杂且不断发展的数据流而面临严重的挑战。不幸的是,现有方法对这些挑战太短。在线异常检测方法承担着处理复杂性的负担,而离线深度异常检测方法则遭受了不断发展的数据分布的影响。本文介绍了一个在线深度异常检测的框架ARCU,可以与任何基于自动编码器的深度异常检测方法实例化。它使用两种新颖的技术使用自适应模型合并方法来处理复杂而不断发展的数据流:概念驱动的推理和漂移感知模型池更新;前者检测到最适合复杂性的模型组合的异常,后者会动态调整模型池以适合不断发展的数据流。在具有高维和概念拖延的十个数据集的全面实验中,Arcus提高了基于最先进的自动编码器的流媒体变体的异常检测准确性,并提高了最新的方法和最新的方法。 ART流动异常检测方法的分别为22%和37%。
translated by 谷歌翻译
In this study, we propose a lung nodule detection scheme which fully incorporates the clinic workflow of radiologists. Particularly, we exploit Bi-Directional Maximum intensity projection (MIP) images of various thicknesses (i.e., 3, 5 and 10mm) along with a 3D patch of CT scan, consisting of 10 adjacent slices to feed into self-distillation-based Multi-Encoders Network (MEDS-Net). The proposed architecture first condenses 3D patch input to three channels by using a dense block which consists of dense units which effectively examine the nodule presence from 2D axial slices. This condensed information, along with the forward and backward MIP images, is fed to three different encoders to learn the most meaningful representation, which is forwarded into the decoded block at various levels. At the decoder block, we employ a self-distillation mechanism by connecting the distillation block, which contains five lung nodule detectors. It helps to expedite the convergence and improves the learning ability of the proposed architecture. Finally, the proposed scheme reduces the false positives by complementing the main detector with auxiliary detectors. The proposed scheme has been rigorously evaluated on 888 scans of LUNA16 dataset and obtained a CPM score of 93.6\%. The results demonstrate that incorporating of bi-direction MIP images enables MEDS-Net to effectively distinguish nodules from surroundings which help to achieve the sensitivity of 91.5% and 92.8% with false positives rate of 0.25 and 0.5 per scan, respectively.
translated by 谷歌翻译
最近的深度学习模型在言语增强方面已经达到了高性能。但是,获得快速和低复杂模型而没有明显的性能降解仍然是一项挑战。以前的知识蒸馏研究对言语增强无法解决这个问题,因为它们的输出蒸馏方法在某些方面不符合语音增强任务。在这项研究中,我们提出了基于特征的蒸馏多视图注意转移(MV-AT),以在时域中获得有效的语音增强模型。基于多视图功能提取模型,MV-AT将教师网络的多视图知识传输到学生网络,而无需其他参数。实验结果表明,所提出的方法始终提高瓦伦蒂尼和深噪声抑制(DNS)数据集的各种规模的学生模型的性能。与基线模型相比,使用我们提出的方法(一种用于有效部署的轻巧模型)分别使用了15.4倍和4.71倍(FLOPS),与具有相似性能的基线模型相比,Many-S-8.1GF分别达到了15.4倍和4.71倍。
translated by 谷歌翻译
自动化的设计数据归档可以减少设计师从创造性和有效工作浪费的时间。尽管存在许多有关分类,检测和实例对CAR外部的数据集,但这些大数据集与设计实践无关,因为主要目的在于自动驾驶或车辆验证。因此,我们发布了由汽车设计师定义的汽车样式功能组成的GP22。该数据集包含来自37个品牌和十个汽车段的1480个汽车侧面配置图像。它还包含遵循汽车外部设计特征的分类学特征的设计功能的注释,该特征在汽车设计师眼中定义。我们使用Yolo V5作为数据集的设计特征检测模型训练了基线模型。提出的模型的地图得分为0.995,召回0.984。此外,在草图上探索模型性能以及渲染汽车侧轮廓的图像意味着数据集的可扩展性是为了设计目的。
translated by 谷歌翻译
当前的关键字发现系统通常通过大量预定义的关键字进行培训。在开放式摄影设置中识别关键字对于个性化智能设备互动至关重要。为了实现这一目标,我们提出了一个基于MLPMixer的纯粹基于MLP的神经网络,该网络是MLPMIXER - 一种MLP模型体系结构,可有效取代视觉变压器中的注意机制。我们研究了将mlpmixer体系结构适应QBYE开放式录音录一下关键字点斑点任务的不同方法。与最先进的RNN和CNN模型的比较表明,我们的方法在挑战性情况(10DB和6DB环境)上都在公开可用的HEY-SNIPS数据集和具有400个扬声器的更大规模的内部数据集上取得了更好的性能。与基线模型相比,我们提出的模型还具有较少数量的参数和MAC。
translated by 谷歌翻译
现代消费电子设备已为其主要功能采用了深度学习的情报服务。供应商最近开始在设备上执行情报服务,以在设备中保存个人数据,降低网络和云成本。我们发现了通过使用用户数据更新神经网络的情况,而无需将数据暴露在设备中:设备培训。例如,我们可能会添加一个新课程,我的狗Alpha用于机器人真空吸尘器,适应用户口音的语音识别,让文本到语音说话,好像用户会说话。但是,目标设备的资源限制遇到了重大困难。我们建议NNTrainer,这是一个轻巧的设备培训框架。我们描述了NNTrainer实施的神经网络的优化技术,这些技术与传统一起评估。评估表明,NNTrainer可以将内存消耗降低至1/28,而不会恶化准确性或训练时间,并有效地个性化了对设备上的应用程序。 NNTrainer是跨平台和实用的开源软件,该软件正在作者隶属关系中部署到数百万个设备。
translated by 谷歌翻译
长期以来,在行业中广泛使用异常定位。先前的研究集中在近似于正常特征的分布而不适应目标数据集的情况下。但是,由于异常定位应精确区分正常和异常特征,因此缺乏适应性可能会使异常特征的正态性高估。因此,我们提出了基于耦合的 - 希普尔特征适应(CFA),该功能适应(CFA)使用适合目标数据集的功能来完成复杂的异常定位。 CFA由(1)一个可学习的补丁描述符组成,该描述符可学习和嵌入面向目标的功能以及(2)可扩展的内存库,独立于目标数据集的大小。并且,CFA采用转移学习以增加正常特征密度,因此可以通过将贴片描述符和记忆库应用于预训练的CNN来清楚地区分异常特征。所提出的方法在定量和质量上优于先前的方法。例如,它提供的AUROC分数为99.5%,在MVTEC AD基准的异常定位中提供98.5%。此外,本文指出了预训练的CNN的偏置特征的负面影响,并强调适应目标数据集的重要性。该代码可在https://github.com/sungwool/cfa_for_anomaly_localization上公开获得。
translated by 谷歌翻译
常规的基于NAS的修剪算法旨在找到具有最佳验证性能的子网络。但是,验证性能并不能成功代表测试性能,即潜在性能。另外,尽管对修剪的网络进行微调以恢复性能下降是不可避免的过程,但很少有研究解决了这个问题。本文提供了一种新颖的合奏知识指导(EKG),以一次解决这两个问题。首先,我们在实验上证明损失格局的波动可以是评估潜在性能的有效指标。为了以低成本搜索具有最平稳损失景观的子网络,我们采用心电图作为搜索奖励。用于以下搜索迭代的EKG由临时子网络的集合知识,即子网络评估的副产品组成。接下来,我们重复使用心电图为修剪的网络提供温和的信息指导,同时微调修剪的网络。由于在两个阶段中都将心电图作为内存库实施,因此需要可忽略的成本。例如,当修剪和训练Resnet-50时,只需315 GPU小时即可删除约45.04%的拖鞋而没有任何性能降解,即使在低规格的工作站也可以运行。实施的代码可在https://github.com/sseung0703/ekg上找到。
translated by 谷歌翻译
最近,将变压器结构应用于图像分类任务的视觉变压器(VIV)具有优于卷积神经网络的优势。然而,使用诸如JFT-300M的大型数据集的预先训练的VIT结果的高性能和其对大型数据集的依赖性被解释为由于低地位感应偏差。本文提出了移动的贴片标记(SPT)和地区自我关注(LSA),有效解决了缺乏地区归纳偏差,使其即使在小型数据集上也能从划痕中学习。此外,SPT和LSA是通用且有效的附加模块,可轻松适用于各种VITS。实验结果表明,当SPT和LSA都应用于VITS时,性能在微小的想象中平均提高2.96%,这是一个代表性的小型数据集。特别是,由于所提出的SPT和LSA,Swin Transformer达到了4.08%的压倒性的性能提高。
translated by 谷歌翻译
GPT-3显示了培训的大规模语言模型(LMS)的卓越情调学习能力,培训数十亿规模数据。在这里,我们解决了GPT-3纸张报告的一些剩余问题,例如非英语LM,不同大小模型的性能,以及最近引入的迅速优化对上下文学习的效果。为实现这一目标,我们介绍了HyperClova,一个韩国VPT-3的韩国变体训练在一个以韩国为中心的560b标准的令牌。通过我们的韩国特定标记化,HyperClova与我们的培训配置增强,显示了韩国各种下游任务的最先进的上下游零射击和几秒钟学习表演。此外,我们展示了基于及时的学习的性能优势,并演示如何集成到迅速的工程管道中。然后,我们讨论了通过引入Hyperclova Studio,互动提示工程界面向ML的非专家提供AI原型设计能力来实现No Code AI范例的可能性。最后,我们展示了我们具有三个成功的内部应用程序的方法的潜力。
translated by 谷歌翻译